总 第 266 期 20164 第 1 期 


N 


数据 监管 的 政策 研究 综述 


JEU NC 
!( 中 国 科学 院 文献 情报 中 心 “ 北 京 100190) 
中国 科学 院 大 学 ”北京 100049) 


摘要 : 


[ 目的 】 探索 数 据 监管 政策 的 实施 细节 ， 促 进 数据 监管 政策 的 建立 。[ 方法 ] 通过 梳理 国内 外 数据 监管 的 


相关 理论 成 果 , 并 分 别 从 科学 数据 的 洲 选 标准 、 存 储 规范 和 传播 交流 机 制 三 方面 进行 归纳 和 总 结 。[ 结果 】 数据 
监管 的 政策 要 素 主 要 包括 : 数据 遂 选 标准 (符合 数据 提交 流程 要 求 、 优 先 遂 选 原则 、 数 据 真 实 可 用 的 声明 、 数 据 
来 源 不 具 争 议 性 ); 数据 存储 规范 (遵循 相关 政策 、 保 障 数据 完整 、 满 足 通用 技术 标准 、 保 证 长 期 可 持续 发 展 ); 传 
播 交 流 机 制 (遵循 法 律 法 规 和 行业 指南 、 开 放 获取 传播 许可 协议 、 传 播 行为 的 免责 声明 、 数 据 重 用 的 说 明文 件 ) 


等 。[ 局 限 】 需 要 结合 我 国 的 实际 ， 进 一 步 完 善政 策 框架 中 的 细节 。[ 结论 ] 科研 组 织 、 协 会 、 


积极 推进 和 制定 数据 监管 政策 。 
关键 词 : 数据 监管 ”数据 管理 服务 
分 类 号 : G302 


数字 档案 管理 


数据 权益 管理 


资助 机 构 等 应 该 


数据 赣 选 ”长 期 保存 


1 数字 监管 下 的 科学 数据 具有 高 质量 重用 
价值 


以 数据 论文 的 形式 共享 科学 数据 为 数据 发 现 、 重 
用 以 及 科研 人 员 的 成 果 获 得 领域 内 学 者 的 认可 和 信赖 
芮 定 了 基石 出。 在 e-Science 环境 中 ， 人 们 对 数据 驱动 科 
研 所 需要 的 、 具 有 高 质量 保障 的 数据 集 有 更 高 要 求 叫 。 
为 此 , 科学 界 普遍 认为 需要 在 数据 生命 周期 内 进行 主 
动 积极 的 监管 ， 以 便 数 据 更 符合 新 环境 下 对 其 利用 和 
重用 的 要 求 ， 同 时 更 好 地 促进 学 术 社 群 内 数据 的 共享 
与 交流 趾 。 数字 监 管 指 在 科学 数据 的 生命 周期 内 采取 主 
动 的 方式 (数据 标注 、 评 价 、 选 择 、 转 换 等 ) 对 数据 进行 
有 效 管理 , 使 其 增值 ， 从 而 提供 更 广泛 的 数据 共享 中。 

美国 学 院 与 研究 图 书馆 协会 (ACRL) 在 2012 年 将 
数据 监管 作为 图 书馆 界 的 主流 发 展 趋势 之 一 外 国内 外 
图 书 情报 界 开展 一 系列 有 关 数 据 监 管 的 举措 9， 包括 : 

(1) 构建 数据 知识 库 ， 国际 上 目前 建设 较 好 的 数 


据 知 识 库 有 Edinburgh DataShare, Dryad, figshare 等 。 

(2) 开展 数据 监管 教育 ,美国 伊利 诺 伊 大 学 香槟 分 
校 (UIUC) 2006 年 开设 了 数据 监管 课程 。 此 后 , 北 卡 罗 来 纳 
州立 大 学 、 密 软 根 大 学 等 也 先后 开设 数据 监管 课程 中 。 

(3) 开发 基于 生命 周期 的 数据 管理 计划 服务 工具 ， 
如 美国 加 利 福 尼 亚 数字 图 书馆 的 数据 管理 计划 在 线 工 
Ħ (DMP Online). 

(4) 建立 数据 管理 基础 设施 , 开展 数据 监管 实践 ， 
如 约翰 霍 普 金 斯 大 学 的 数据 保护 (Johns Hopkins 
University's Data Conservancy), JE KPH AGEE 
(Purdue University Research Repository) 、 罗 格 斯 大 学 的 
RUresearch 数据 门户 (RUresearch Data Portal) 和 美国 康 
奈 尔 大 学 图 书馆 的 DataStar 项 目 。 

在 推进 一 系列 工作 取得 成 绩 的 同时 , 也 出 现 若 干 
新 的 挑战 9， 如 用 以 监管 的 数据 质量 控制 问题 、 科 研 
机 构 数据 政策 的 制定 、 用 以 支持 数据 管理 者 进行 数据 
监管 的 参考 指南 等 ， 随 着 数据 监管 工作 的 不 断 开 展 ， 


通讯 作者 : 顾 立 平 , ORCID: 0000-0002-2284-3856, E-mail: gulp@mail.las.ac.cn。 
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这 些 问 题 将 会 被 不 断 放 大 。 赣 选 、 存 储 、 评 佑 、 分 析 、 再 和 利用、 共享, 这 不 仅仅 
数据 监管 已 成 为 图 书馆 、 档 案 馆 的 一 项 重要 发 展 。 是 工程 问题 , 更 涉及 政策 问题 , 将 上 述 服务 所 涉及 的 
战略 ， 其 实施 过 程 中 会 涉及 一 系列 政策 问题 , 例如 ， ”权益 关系 进行 研究 提问 (Research Inquiry), 应 该 包括 : 


用 以 监管 的 数据 需要 符合 哪些 标准 要 求 ? 如 何 对 数据 (1) 科研 人 员 进 行 科学 活动 时 所 产生 的 科学 数据 ， 

进行 存储 ? 数据 传播 交流 的 机 制 是 什么 ? 等 等 。 本 研 。” 所 需要 的 管理 程序 是 什么 ? 

究 针 对 上 述 问 题 进行 政策 调研 工作 , 探讨 数据 监管 的 (2) 经 过 管理 程序 初步 游 选 的 科学 数据 ， 在 存储 

政策 要 素 , 以 期 在 实践 工作 中 为 数据 监管 的 政策 制定 。 ”的 数据 基础 设施 上 , 应 有 哪些 管理 方式 ? 

与 决策 服务 提供 参考 。 (3) 学 术 社 群 对 科研 人 员 提 交 并 存储 在 数据 知识 
库 中 的 科学 数据 进行 传播 共享 时 , 应 该 具有 怎样 的 共 


2 数字 监管 下 科学 数据 管理 规范 的 研究 


识 公约 ? 
据 此 ,本 文 的 研究 框架 分 别 从 “研究 问题 "和 “观测 
在 数据 监管 框架 下 , 需要 对 科学 数据 进行 鉴别 、 问题 "两 方面 进行 论述 ， 如 表 1 所 示 : 


i 1 研究 框架 
co, 
e 研究 问题 观测 问题 
N (D 数 据 是 否 符合 提交 流程 要 求 ”数据 集 是 否 涵盖 应 当 保存 的 数据 内 容 ” 元 数据 是 否 符合 规范 ? 
pm 数字 监管 下 的 科学 数据 OMEA ETER? 数据 内 容 是 否 是 一 次 性 生成 的 原始 数据 ?是否 具 有 保存 价值 的 数据 ? 
需要 符合 哪些 遂 选 标准 ? — (3) 数 据 是 否 真实 可 用 ? 数据 是 否 可 验证 和 可 重用 ? 是否 存在 虚假 信息 ? 
v (4) 数 据 来 源 应 该 符合 什么 要 求 ? 数据 是 否 存在 法 律 或 伦理 限制 ? 
J Bride cir SLE (1) 数 据 存储 是 否 有 可 遵循 的 政策 ?政策 应 该 具有 哪些 规定 ? 
让 (0) 数据 是 否 被 完整 地 存储 ? 有 无 防 目 算 改 或 无 意 改动 的 措施 ?数据 是 否 进 行 安全 备份 ? 
一 ATIE a G) 数 据 集 是 否 符合 通用 的 技术 标准 ”对 数据 格式 、 软 硬件 具有 怎样 的 要 求 ? 
-— (4) 数 据 保存 是 否 具有 可 持续 性 ? 是 否 具有 可 持续 的 资金 投入 ? 如 何 应 对 不 可 抗拒 的 事故 ? 
x (1) 数 据 是 否 遵循 法 律 指南 或 行业 行为 准则 ? 
-— 科学 数据 传播 交流 应 该 (2) 如 何 解决 数据 传播 中 的 知识 产权 问题 ”是 否 获得 开放 获取 传播 的 授权 许可 协议 ? 
> 遵循 怎样 的 机 制 ? (3) 数 据 涉及 人 类 主体 问题 时 ,如何 进行 规避 ? 是 否 获得 传播 行为 的 免责 声明 ? 
` (4) 数 据 是 否 有 支持 共享 和 重用 的 说 明文 档 ” 是 否 有 能 说 明 数 据 结构 、 数 据 访问 和 引用 规范 的 说 明文 件 ? 
.三 3 科学 数据 的 北 选 标准 限 有 所 要 求 ,数据 遂 选 提供 一 种 保存 期 满 后 是 否 继续 
ER MOM | 存储 的 鉴定 评估 途径 。 
QO 国际 科学 和 技术 信息 理事 会 (International Coal 3.1 数据 应 符合 提交 流程 要 求 
for Scientific nien Information, ICSTD) 信 息 生 数据 监管 至 少 有 三 种 实施 情况 0 
A E HA REC Jn E ye AN 济 程 不 i 或 EIIE " rE "" 
命 周期 流程 框架 “中 将 洲 选 作为 整个 工作 流程 不 可 或 (D 数据 贡献 者 产生 、 描 述 、 自 行 提交 存储 数据 。 
InN GB /v £5; Ez 2E SHZ ARA y fa El V 2 JE 区 
缺 的 一 个 环节 。 数 据 监管 同样 离 不 开 数 据 的 遵 选 , 其 (2) 数据 监管 人 员 采 集 、 评 估 、 遂 选 、 存 储 和 长 
原因 包括 : 期 保存 数据 。 
(1) 数据 备份 和 镜像 站 维护 需要 一 定 成 本 ， 所 以 (3) 数据 贡献 者 提交 后 ,数据 监管 人 员 进行 筛选 、 
需要 六 选 具 有 保存 价值 的 数据 。 审核 、 管 理 与 提供 利用 。 
(2) 如 果 数 据 不 进行 洲 选 ,所 存储 的 数据 可 能 会 普遍 做 法 是 采用 第 三 种 方式 ,双方 按照 一 套 工作 
不 断 增 长 、 泛滥 甚至 造成 元 余 ， 从 而 让 数据 的 发 现 、 流程 (Workflow) 实 施 。 
挖掘 、 利 用 变 得 困难 "”。 数据 贡献 者 和 数据 监管 人 员 需 要 共同 遵守 的 原则 : 
(3) 若干 具有 保存 价值 的 数据 随 着 科研 项 目 生命 (1) 数据 集 应 该 涵盖 需要 保存 的 内 容 , 保存 内 容 
周期 的 结束 可 能 会 造成 流失 ,良好 的 洲 选 实践 标准 能 。” ”的 完整 丰富 性 对 数据 理解 、 利 用 和 监管 具有 重要 影响 。 
及 时 保存 这 类 数据 。 (2) 元 数据 应 该 尽 可 能 详尽 完整 ,才能 供 其 他 人 


(4) 科研 资助 条 款 和 科研 教育 机 构 对 数据 保存 期 ”高 效率 使 用 。 
ES 现代 图 书 情报 技术 


3.2. ds D ERE Jes DU 

在 同等 条 件 下 ,数据 监管 不 仅 要 确保 数据 能 长 期 
保存 , 更 重要 是 实现 数据 知识 的 交流 , 优先 遂 选 可 信 、 
可 用 和 具有 价值 的 数据 更 能 符合 这 一 目标 站。 优先 六 
选 原则 包括 : 

(1) 一 次 性 原始 数据 。 数 据 的 记录 是 短暂 的 或 一 
次 性 的 ， 如 天 气 观 测 、 火 山 爆 发 或 降雨 记录 等 。 

(2) 不 可 重复 产生 的 数据 。 观测 对 象 原来 存在 , 但 
观测 的 变量 可 能 会 随 着 时 间 的 推移 而 出 现 不 同 的 情 
况 , 例如 短 时 间 内 受 测 者 (人 类 /动物 ) 依 然 可 以 重复 测 
验 , 但 当时 实验 所 获得 的 数据 是 不 可 重复 的 。 

(3) 非 宛 余数 据 。 指 计算 机 系统 内 不 存在 重复 或 
无 用 的 数据 。 

(4) 优先 考虑 具有 科学 研究 、 历 史记 录 和 社会 经 
济 价 值 的 数据 。 

数据 监管 人 员 在 实施 上 述 原 则 的 第 4 项 时 , 需要 
有 可 操作 的 概念 界定 。 有 学 者 综述 美国 科学 研究 理事 
会 (National Research Council, NRC), DDC, ANDS 等 
的 报告 (WJ 指 出 : 

(1) 数据 的 科学 价值 指数 据 支 持 科 学 活动 ， 对 科 
技 成 果 具 有 可 验证 性 。 

(2) 历史 价值 指数 据 不 仅 提 供给 科研 人 员 所 用 ， 
更 包括 社会 团体 和 个 人 使 用 。 

(3) 社会 价值 指数 据 能 反映 当代 社会 的 利益 , 并 
在 未 来 的 重用 中 ， 有 助 于 社会 经 济 的 发 展 。 

3.3 ”数据 真实 可 用 的 声明 

数据 贡献 者 应 当 提交 一 份 表明 所 提交 数据 真实 可 
用 的 声明 。 其 含义 包括 : 

(1) 数据 可 解读 。 

(2) 数据 可 被 验证 和 重用 ， 即 数据 能 对 研究 成 果 
进行 有 效 验 证 , 并 通过 数据 追踪 能 确认 科研 结论 的 可 
信和 度 。 

(3) 数据 集 不 存在 伪造 信息 ,可 以 作为 科研 成 果 
之 一 , 并 且 作 为 证 明 相 关 结 论 的 依据 。 

(4) 无 刻意 筛选 屏蔽 信息 。 

数据 贡献 者 提交 数据 真实 可 用 的 声明 一 方面 表示 
数据 贡献 者 愿意 对 此 负责 ， 另 一 方面 可 以 帮助 数据 监 
管 人 员 快 速 理解 数据 。 

3.4 数据 来 源 不 具 争 议 性 
数据 监管 的 第 一 原则 是 合法 性 , 包括 数据 监管 的 
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依据 过程 和 内 容 , 所 以 , 用 以 监管 的 数据 不 应 当 以 不 
合法 、 不 合理 、 不 道德 的 方式 产生 。 数 据 监 管 应 该 避 
免 存 在 法 律 、 道 德 、 伦 理 的 争议 , 例如 数据 所 有 权 、 
涉及 人 类 主体 的 实验 、 涉 及 个 人 信息 、 国 家 安全 、 保 
密 以 及 数据 提供 者 要 求 的 共享 前 提 !4。 上 述 原则 要 求 
TB VA PULS: 

(1) 数据 生成 过 程 中 不 违反 学 术 道德 、 科 学 伦理 
和 现 有 法 律 法 规 。 

(2) 学 术 活 动产 生 的 科学 数据 应 该 遵守 法 律 、 伦 
理 、 社 会 实践 等 的 共同 规范 ,即便 是 特定 学 科 的 信息 
管理 准则 也 将 此 类 原则 视 为 优先 考虑 。 

(3) 数据 传播 应 考虑 各 方 利 益 关 系 人 的 合法 权益 。 

行业 规范 对 这 些 原则 的 具体 实施 带 来 重要 参考 
价值 07 以 晶体 学 领域 而 言 , 数据 使 用 者 据 此 开发 新 
产品 、 开 展 新 研究 和 申请 新 项 目 时 , 要 与 数据 贡献 者 
先行 沟通 ,取得 正式 或 非 正式 的 同意 /参与 许可 ; 在 地 
理 生物 学 (Geobiology, 也 称 为 地 球 生物 学 (中 领域 , 国 
家 资助 的 观测 仪器 和 科研 项 目 所 产生 的 科学 数据 普 
遍 要 求 开 放 共 享 ， 大 型 研究 所 和 受 委 托 的 公司 则 会 
尽量 保留 自己 的 权利 ,在 开放 获取 时 滞 期 上 提出 不 
同 要 求 。 


4 数据 存储 规范 


数据 基础 设施 包括 但 不 限于 0 

(1) 大 型 仪器 设备 及 其 信息 平台 ; 

(2) 专业 领域 的 数据 交流 网 络 ; 

(3) 数据 中 心 : 大 数据 资源 基地 或 项 目 仓 储 ; 

(4) 数据 银行 (Data Bank): 基于 协议 或 条 款 为 数 
据 贡献 者 提供 数据 存储 的 知识 库 ; 

(5) 数据 档案 馆 : 为 感 兴趣 的 终端 用 户 群 体 提 供 
特定 数据 资源 的 数据 知识 库 ; 

(6) 图 书馆 : 电子 文件 平台 数据 知识 库 和 机 构 知 
识 库 。 

尽管 这 类 基础 设施 建设 目的 不 同 , 但 在 面临 数据 
监管 挑战 时 , 利益 相关 人 (科研 资助 者 、 科 研 管理 者 、 
项 目 负 责 人 、 数 据 贡 献 者 、 数 据 监管 人 员 、 数 据 使 用 
者 ) 需 要 达成 一 致 共识 或 遵守 一 套 公 约 。 
4.1 ”优先 遵守 资助 机 构 和 科研 机 构 的 数据 政策 

科研 资助 者 的 资助 政策 、 条 款 及 管理 办 法 中 对 项 
目 负 责 人 如 何 处 理 数据 做 了 相关 规定 。 作 为 支持 数据 
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监管 的 基础 设施 ,自然 也 要 遵守 、 苯 重 、 遵 循 他 们 的 
数据 政策 , 才能 要 求 、 邀 请 、 邀 约 数据 贡献 者 提交 符 
合 数据 条 选 标准 的 数据 ,并 被 数据 监管 人 员 审 核 、 
审查 、 审 定 能 否 提供 给 数据 使 用 者 ,包括 科研 团体 
和 公众 。 
根据 前 期 调研 成 果 呈 0， 科 研 资助 机 构 和 科研 教 
育 机 构 要 求 受到 资助 的 科研 项 目 所 产生 的 数据 在 遵守 
机 构 管理 办 法 下 进行 长 期 保存 和 开放 共享 。 这 类 政策 
针对 : 

(1) 学 科 范 围 

(2) 提交 时 间 , 一 般 要 求 资助 项 目 完 成 后 6-12 个 
月 内 进行 提交 存储 ; 

Q) 最 低 保存 期 限 , 科研 数据 至 少 保存 3 年 以 供 查 
验 , 安全 保存 10 年 以 供 利用 ; 

(4) 开放 获取 日 期 , 科研 成 果 正 式 发 布 后 的 12 个 
月 内 实施 开放 获取 ; 

(5) 存储 地 点 , 在 机 构 知 识 库 或 者 第 三 方 可 以 证 
明 具 有 保存 与 传播 功能 的 ， 并 能 保护 各 方 权益 的 数据 
中 心 等 地 方 存储 。 
4.20 ”保障 数据 的 完整 性 

数据 完整 性 是 衡量 数据 质量 的 重要 标准 之 一 , 不 
同 于 “数据 真实 可 用 的 声明 ”( 见 3.3 节 ) 中 数据 贡献 者 有 
关 数 据 真实 完整 的 声明 ,对 数据 基础 设施 所 要 求 的 数 
据 存 储 规约 而 言 ， 强调 的 是 严格 保障 数据 完整 性 的 具 
体 措施 原则 , 例如 , 美国 政治 与 社会 研究 校 际 联盟 
(Inter-university Consortium for Political and Social 
Research, ICPSR) 基 于 OAIS 模型 开发 了 社会 科学 数据 
知识 库 , 该 知识 库 为 保证 数据 完整 性 , 特别 强调 考虑 
到 数据 背景 信息 、 保 存 描述 信息 ， 以 及 在 数据 访问 上 
的 用 户 权限 问题 ,这些 措 施 在 一 定 程 度 上 保证 了 数据 
在 知识 库 中 的 完整 性 。 

这 类 完整 性 的 基本 要 求 包括 : 

(1) 防止 算 改 

假如 数据 需要 修改 , 应 有 三 种 选项 : 

为 了 让 数据 使 用 者 能 明确 不 同 版 本 的 数据 ,数据 贡 
献 者 进行 数据 修改 、 更 新 、 调 整 时 ， 应 有 一 个 说 明和 记录 。 

人 @) 数 据 监管 人 员 因 为 格式 统一 、 复 制 保存 等 的 需要 或 其 
他 原因 在 小 范围 内 修正 数据 时 ， 需 要 告知 数据 贡献 者 或 事 
前 应 有 明确 规范 。 

@@ 当 接受 到 第 三 方 提出 数据 集 在 存储 、 传 播 以 及 内 容 上 
有 问题 的 异议 时 ， 应 由 数据 贡献 者 、 数 据 监 管 人 甚至 科研 管 
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理 人 员 进 行 论证 。 

上 述 三 种 情况 都 应 该 保证 数据 不 能 被 任何 人 以 任 
何 理 由 不 经 过 当事人 同意 、 许 可 的 情况 下 算 改 。 

(2) 防止 无 意 改 动 

以 数据 监管 而 言 ， 唯 有 数据 错误 时 , 无论 该 数据 
来 自 于 提交 时 已 经 有 的 瑕 辛 、 数 据 格 式 迁移 时 造成 的 
数据 损失 、 或 其 他 意外 所 造成 的 数据 破坏 等 , 才 会 再 
次 校订 、 补 充 和 更 正 数据 。 

(3) 安全 备份 

为 长 期 保存 、 防 止 自然 、 意 外 灾害 或 人 员 组 织 变 
动 等 情况 所 造成 的 数据 流失 , 根据 合理 使 用 原则 ,对 
数据 进行 复制 或 迁移 措施 。 
4.3 ”满足 通用 的 技术 标准 

数据 监管 有 赖 于 一 个 适合 的 技术 标准 , 其 理由 包括 : 

(1) 数据 迁移 时 ,双方 如 果 采 用 统一 标准 , 会 提 
高 工作 效率 ,降低 经 济 成 本 中 

(2) 数据 备份 时 ， 所 用 的 工具 、 方 法、 操作 程序 及 
专业 人 员 技 能 等 相似 ， 可 以 减低 数据 噪音 ; 

(3) 数据 转换 时 ,应 避免 仅 由 少数 厂商 或 者 技能 
小 组 实行 , 增加 实施 方案 的 可 选 性 。 

通用 技术 标准 的 功能 一 般 包括 : 文件 格式 、 类 似 
OAIS 的 参考 标准 .永久 保存 的 唯一 标识 符 以 及 支持 远 
程 访问 、 存 储 和 验证 的 标准 。 其 特性 主要 包括 : 机 器 
可 读 、 人 可 识别 、 容 易 访问 、 可 转换 格式 以 及 兼容 上 
述 条 件 的 开放 性 ， 主 要 考虑 到 数据 监管 需要 对 数据 进 
行 定期 迁移 转换 , 具有 开放 性 的 技术 标准 是 有 弹力 、 
可 适应 多 种 技术 策略 和 经 济 有 效 的 中 1。 
4.4 保证 长 期 可 持续 发 展 

数据 监管 的 核心 目的 之 一 是 维持 高 质量 数据 的 开 
放 共 享 ， 避 免 重要 数据 的 流失 。 数 据 开 放 获 取 能 够 让 
人 们 充分 利用 数据 、 进 行 溯源 和 承认 科研 贡献 , 因此 
需要 长 期 可 持续 的 发 展 机 制 保证 这 类 记录 真实 存在 。 

数据 监管 的 长 期 可 持续 发 展 有 三 项 针对 性 : 

(1) 非 一 次 性 项 目 工 程 。 数 据 管理 通常 会 面临 有 
价值 的 科学 数据 容易 随 着 项 目 结束 而 流失 ， 因此, 一 
个 长 期 可 持续 的 数据 监管 机 制 是 较 好 的 解决 方案 ; 

(2) 不 以 鱼 利 为 目的 的 商业 经 营 模 式 。 数 据 监管 
具有 收入 支出 效益 , 且 高 标准 要 求 所 送 选 的 数据 具有 
客观 、 完 整 和 一 致 性 等 不 受 利益 因素 干扰 的 前 提 条 件 ， 
长 期 可 持续 发 展 方案 会 优先 考虑 非 商 业经 营 模式 ; 


(3) 遇 不 可 抗 事故 的 应 变 措施 。 当 受到 自然 灾害 
或 人 为 事故 等 不 可 抗 因 素 时 ， 需 要 有 一 套 标准 作业 程 
序 应 对 这 类 事故 带 来 的 损失 P4。 


5 传播 交流 机 制 


数据 监管 的 重要 目标 之 一 是 为 用 户 提供 科学 数据 
的 开放 获取 1。 数据 基础 设施 从 任务 流程 (数据 提交 、 
组 织 、 人 处理 、 存 储 和 共享 等 ) 考 虑 并 建立 数据 监管 前 期 
阶段 的 内 部 管理 机 制 , 但 在 真正 推进 数据 共享 时 ,会 
面临 着 各 方面 阻碍 ,如 没有 明确 告知 数据 贡献 者 数据 
利用 情况 ,如 何 去 尊重 、 保 护 数 据 贡献 者 权益 等 。 从 
政策 规划 角度 而 言 ,完整 的 数据 监管 除了 效 选 规范 、 
存储 规约 之 外 , 传播 交流 机 制 也 是 整体 政策 方案 中 的 
重要 组 成 部 分 F ”1。 

5.1 ”遵循 国家 法 律 法 规 或 行业 的 最 佳 实践 标准 

在 考虑 各 种 传播 交流 机 制 的 优先 次 序 上 , 首先 是 
国家 的 法 律 法 规 ， 其 次 是 行业 的 最 佳 实践 标准 。 具 体 
而 言 ， 可 以 包括 : 

(1) 遵循 著作 权 及 其 邻接 权 的 合法 权益 (数据 贡 
献 者 理 当 享有 的 精神 权利 ， 以 及 财产 权利 的 分 配 )、 知 
识 产 权 转 移 转化 GPCs)P( 科 研 资助 者 和 科研 管理 者 对 
于 产生 市 场 价值 的 数据 提供 免费 获取 的 要 求 )、 单 位 
和 /或 知识 库 政策 等 ; 

(2) 科学 记录 管理 规范 ， 如 《澳大利亚 负责 任 的 研 
究 行 为 准则 》FY《 英 国 研究 理事 会 良好 科研 行为 管理 
的 行为 准则 和 政策 站 1 等 (对 科学 数据 存储 、 存 储 时 间 、 
如 何 存储 及 提供 共享 等 做 了 规定 )。 

5.2. ”开放 获取 授权 许可 协议 

许可 协议 (License) 是 著作 权 拥 有 者 对 如 何 使 用 内 
容 进 行 的 规范 性 说 明 , 开放 获取 授权 许可 协议 是 数字 
化 、 网 络 化 环境 中 如 何 充分 保障 数据 贡献 者 权益 以 及 赋 
予 数据 使 用 者 权利 的 重要 依据 。 目 前 ， 比 较 通用 的 协议 
是 CC-BY 要 求 数据 使 用 者 尊重 (数据 贡献 者 ) 作 者 精神 
权利 ， 对 数据 贡献 者 进行 署名 (说 清楚 用 谁 的 数据 )。 此 
外 , 还 有 CC0 等 协议 ,可 以 对 政府 统计 数据 等 客观 事实 
不 需要 署名 具体 数据 贡献 者 的 情况 进行 授权 许可 。 

由 于 数据 的 采集 、 处 理 、 筛 选 和 符合 送 选 标准 的 
提交 过 程 涉及 一 定 程 度 的 智力 劳动 , 因此 ,数据 集 普 
遍 以 CC-BY 或 者 更 加 严格 的 许可 协议 进行 使 用 授权 。 
而 元 数据 是 描述 这 类 事实 (数据 集 ) 的 数据 ， 建议 以 
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CCO 的 方式 授权 许可 。 由 此 , 数字 监管 规划 可 以 明确 
传播 使 用 许可 ,以 CC-BY 授权 数据 集 、 以 CC0 授权 
元 数据 的 方式 实施 。 
5.3 ”传播 行为 的 免责 声明 

数据 传播 共享 中 主要 伦理 问题 就 是 涉及 个 人 或 组 
织 的 敏感 数据 以 及 数据 的 安全 控制 问题 31， 而 传播 行 
为 的 免责 声明 是 告知 数据 使 用 者 经 数据 监管 人 员 遂 
选 、 存 储 和 提供 开放 获取 的 数据 具有 一 定 品 质 , 虽然 
数据 贡献 者 会 对 数据 来 源 不 具 争 议 性 进行 说 明 , 但 数 
据 监管 人 员 在 审核 数据 后 ， 有 义务 和 责任 告知 数据 使 
用 者 关于 数据 的 正当 来 源 和 使 用 方 的 正当 使 用 途径 。 
例如 , 涉及 人 类 主体 数据 需要 知情 同意 签名 文件 ; 涉 
及 敏感 数据 或 政治 数据 需要 伦理 委员 会 批准 证 明 ; 涉 
及 第 三 方 合同 的 数据 需要 授权 同意 书 。 

传播 行为 的 免责 声明 并 不 仅仅 是 尽 到 告知 义务 ， 
而 且 对 促进 良好 学 术 交 流 氛 围 、 促 进 自我 约束 的 道德 
习性 、 增 进 开 放 获 取 良 性 循环 等 具有 参考 意义 和 实践 
价值 。 
5.4 数据 重用 的 说 明文 件 

综 上 所 述 , 无 论 是 洲 选 标准 、 存 储 规约 还 是 传播 
交流 等 11 项 政策 主旨 ,其 最 终 目标 都 是 为 了 让 科学 数 
据 具 有 良好 的 管理 和 传播 使 用 。 若 要 达成 上 述 各 项 政 
策 ， 数 据 监管 的 最 后 一 关 是 数据 重用 的 说 明文 件 ,， 解 
释 若 要 用 这 批 数据 进行 重复 结果 、 重 置 成 品 、 重 新 创 
造 时 ， 如 何 理解 它们 的 结构 、 字 段 名 含义 等 。 这 类 说 
明文 件 主要 有 : 数据 字典 ; 与 数据 创建 环境 相关 的 背 
景 信息 ,如 项 目 性 质 、 数 据 采 和 集 与 处 理 方式 等 ; 数据 访 
问 与 引用 的 推荐 方式 等 。 


6 结 语 


6.1 数据 监管 中 的 数据 管理 规范 的 政策 要 素 总 结 

针对 本 文 所 提出 的 三 个 研究 问题 归纳 为 可 操作 的 
观测 问题 及 其 政策 要 素 , 包括 : 数据 六 选 标准 .数据 存 
储 规 约 和 传播 交流 机 制 三 大 管理 重点 ， 如 表 2 所 示 。 
62 ”实践 意义 

在 e-Science 环境 中 , 人 研究 流程 和 出 版 流程 的 讨 
论 较 多 , 监管 流程 固然 有 若干 讨论 数字 监管 的 重要 
E ARUM ， 但 多 是 从 技术 、 系 统 和 教育 培训 等 角度 讨 
论 ， 而 从 政策 角度 ,特别 是 针对 数据 的 政策 , 国内 还 
在 初步 探索 中 。 
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表 2 数据 监管 中 科学 数据 管理 规范 的 政策 要 素 


管理 重点 


政策 要 素 


(1) 符 合 数据 提交 流程 要 求 (数据 集 涵 括 需 保存 和 


内 容 、 元 数据 符合 规范 并 且 详 尽 ) 


(2) 优 先 遂 选 原则 (一 次 性 原始 数据 、 不 可 重复 产生 的 数据 、 非 匈 余 数据 、 优 先 考虑 具有 科学 研究 、 历 史记 录 和 社 


数据 渤 选 标准 会 经 济 价值 的 数据 ) 


(3) 数 据 真 实 可 用 的 声明 (可 解读 、 可 验证 、 可 重用 、 无 虚假 伪造 信息 、 无 刻意 租 选 屏蔽 信息 ) 


(4) 数 据 来 源 不 具 争 议 性 (数据 生成 过 程 及 学 术 活 动产 生 的 数据 应 不 违反 学 术 道德 、 科 学 伦理 和 现 有 的 法 律 法 规 ; 


数据 传播 考虑 到 各 方 利益 者 的 合法 权益 ) 


(1) 优 先 遵 守 资 助 机 构 和 科研 机 构 的 数据 政策 (学 科 范 围 、 提 交 时 间 、 最 低 保存 期 限 、 开 放 获 取 日 期 、 存 储 地 点 等 ) 


数据 存储 规范 


(2) 追 求 数据 的 完整 性 (防止 自 改 、 防 止 无 意 改动 ， 以 及 安全 备份 等 ) 


(3) 满 足 通用 技术 标准 (机 器 可 读 、 人 可 识别 、 容 易 访问 、 可 转换 格式 , 兼容 上 述 条 件 的 开放 性 ) 


(4) 保 证 长 期 可 持续 发 展 ( 非 一 次 性 项 目 工程 、 不 以 便利 为 目的 的 商业 经 营 模 式 、 遇 不 可 抗 事 故 的 应 变 措 施 ) 
(1) 遵 循 国家 法 律 法 规 以 及 行业 最 佳 实践 指南 (著作 权 及 其 邻接 权 、 知 识 产 权 转 移 转 化 、 单 位 和 /或 知识 库 政 策 以 及 


科学 记录 管理 规范 ) 
传播 交流 机 制 


(2) 开 放 获 取 传 播 授权 许可 协议 (无 特殊 情况 下 ,元 数据 以 CC0 方式 , 数据 集 以 CC-BY 方式 授权 许可 ) 


i 


(3) 传 播 行为 的 免责 声明 (涉及 人 类 主体 数据 需要 知情 同意 签名 文件 ; 涉及 敏感 数据 或 政治 数据 需要 伦理 委员 会 批 


准 证 明 ; 涉及 第 三 方 合同 的 数据 需要 授权 同意 书 ) 


(4) 数 据 重 用 的 说 明文 件 (数据 字典 、 项 目 性 质 、 数 据 采集 与 处 理 方式 、 数 据 访 问 与 引用 推荐 方式 ) 


数据 监管 是 一 项 系统 工程 , 涉及 数据 对 象 及 其 完 
整 性 、 数 字 监 管 的 技术 措施 、 法 律 和 组 织 因素 以 及 其 
他 如 政策 标准 、 开 放 规 范 、 元 数据 等 要 素 59。 因此 , 本 
文 在 前 人 研究 基础 上 , 做 适当 的 补充 , 并 且 所 梳理 的 研 
究 框架 ( 表 1) 以 及 政策 框架 ( 表 2) 涵 括 了 各 个 利益 相关 人 
的 基本 权益 , 可 为 政策 制定 提供 参考 依据 。 

63 ”研究 局 限 

K 1 研究 框架 下 所 列 的 问题 , 还 需要 结合 实际 情 
况 进 行 具体 细 化 , 重点 分 析 当 前 数据 监管 存在 的 现实 
问题 。 表 2 所 梳理 的 可 操作 执行 的 数据 监管 方案 , 在 
实施 过 程 中 还 要 配合 资助 机 构 、 科 研 教育 机 构 和 信息 
服务 机 构 的 数据 管理 政策 。 在 此 基础 上 ,为 有 效 推进 
这 方面 的 工作 , 还 需要 结合 科学 数据 管理 计划 (DMP) 
共同 实施 , 可 以 取得 良好 成 效 。 

将 本 研究 结果 进行 推广 时 , 需要 注意 结合 实际 案 
例 研究 , 在 制定 有 关 管理 规范 时 , 需要 顾及 到 科研 资 
助 者 、 科 研 管理 人 员 、 科 研 项 目 负 责 人 、 科 研 人 员 等 
的 实际 需求 。 

6.4 ”未 来 研究 

对 科研 团队 进行 实地 调研 ,对 数据 监管 的 研究 中 ， 
除了 数据 的 遂 选 方面 , 还 可 以 对 数据 管理 计划 进行 政 
RERI, 对 数据 与 衍生 数据 的 权益 管理 进行 研究 ， 
开放 获取 传播 授权 许可 协议 , 与 科研 管理 部 门 进行 沟 
通 协 调 , 结合 本 研究 制定 一 套 完整 的 流程 方案 。 
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Policy Research of Data Curation 


Zhang Mengxia'" Ku Liping! 
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
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Abstract: [Objective] The implementation details of data curation promotes to establish data curation policy. [Methods] 
Based on reviewing the research achievements related to data curation, and then systematically concluded from the 
aspects as data selection standards, data storage standards, data communication and sharing mechanism. [Results] The 
main elements of data curation policy include: data selection standards (compliance with the requirements of data 
submission process, priority selection principle, the statement of data credibility and availability, data sources 
uncontroversial), data storage standard (follow the policy, guarantee data integrity, meet common technical standards, 
guarantee long-term sustainable development), and data communication and sharing mechanism (accordance with the 
laws and industrial directory, open access license, disclaimer propagation behavior, data reuse documentation). 
[Limitations] In the future, need to combine with the reality of China to complete the policy framework in detail. 
[Conclusions] Research organizations, associations and funding agencies should actively promote and develop data 
curation policy. 

Keywords: Data curation Data management service Digital archives management Data rights management 
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